查看原文
其他

精选30余款宏基因组分析软件,来自老司机的使用经验总结(上篇)

李木子 生信者言 2022-03-28



相比于16S的短平快,对于很多微生物组学,尤其是环境微生态方向的科研工作者而言,宏基因组仍然是“啃不动的硬骨头”和“信息分析黑箱子”。


这里,我为大家整理了一些主流和常用的宏基因组分析软件,结合自己的工作经验和其他文献中的报道稍作评述,分享给大家,欢迎补充、指正。


01

流程集成

1、MG-RAST

MG-RAST (the Metagenomics RAST) server is an automated analysis platform for metagenomes providing quantitative insights into microbial populations based on sequence data which provides upload, quality control, automated annotation and analysis for prokaryotic metagenomic shotgun samples.


最新版本:

Version 4.02(最近更新时间2017年5月)

参考文献:PMID: 18803844

官网地址:http://metagenomics.anl.gov/

Bioinformatics

老司机点评 

宏基因组因数据量大,很耗费计算资源,自行分析,搭建整个分析流程,时间成本和计算成本都很大,集成软件也很少。


值得高兴的是,还是有一款免费的在线分析服务器MG-RAST,只要上传数据(原始下机数据,质控后数据或者组装后的数据均可),就可以进行数据质控和在线分析,还可以跟别人的数据比较。


但也有缺憾,一是上传数据很费时,毕竟宏基因组数据量比较大,二是分析结果大概要等一周左右,毕竟宏基因组分析很耗费计算资源的,所以要做好一定的心理准备,三是提供的第三方分析工具太少,分析方法没有更多选择。


02

数据质控


基础数据指控

1、FASTX-Toolkit

The FASTX-Toolkit is a collection of command line tools for Short-Reads FASTA/FASTQ files preprocessing.


最新版本:

Version 0.0.13(最近更新时间2010年2月)

参考文献:

Fastx-toolkit. FASTQ/A short-reads pre-processing tools

下载地址:

http://hannonlab.cshl.edu/fastx_toolkit/download.html

官网地址:

http://hannonlab.cshl.edu/fastx_toolkit/

2、NGS QC Toolkit

A toolkit for the quality control (QC) of next generation sequencing (NGS) data. 


最新版本:

Version 2.3.3(最近更新时间2014年2月)

参考文献:PMID: 22312429 

官网地址:

http://www.nipgr.res.in/ngsqctoolkit.html

3、Trimmomatic

A flexible trimmer for Illumina Sequence Data.


最新版本:

Version 0.36(最近更新时间2015年3月)

参考文献:PMID: 24695404

下载地址:

http://www.usadellab.org/cms/?page=trimmomatic

4、Readfq

A very fast multi-line FASTA/Q reader in several programming languages.


最新版本:

最后一次更新在2011年

官网地址:

https://github.com/cjfields/readfq


 去宿主 

1、SoapAligner

A member of the SOAP (Short Oligonucleotide Analysis Package). It is an updated version of SOAP software for short oligonucleotide alignment.


最新版本:

Version 2.21(最近更新时间2011年2月)

参考文献:PMID: 26270169 

下载地址:

http://soap.genomics.org.cn/soapaligner.html

2、Bowtie

An ultrafast, memory-efficient short read aligner, which aligns short DNA sequences (reads) to the human genome at a rate of over 25 million 35-bp reads per hour. 


最新版本:

Bowtie2: Version 2.3.3(最近更新2017年6月)

Bowtie: Version 1.2.1.1(最近更新2017年6月)

参考文献:PMID:19261174

下载地址:

http://sourceforge.net/projects/bowtie-bio/files/

官网地址:

http://bowtie-bio.sourceforge.net/index.shtml

Bioinformatics

老司机点评 

宏基因组数据质控一般包括两部分:


一是常规数据质控,包括去除低质量碱基较多的reads、含N碱基达到一定比例的reads、含有接头的reads等并进行统计。这部分的质控软件有很多,FASTX-Toolkit是一个数据质控相关命令行工具集合,包含FASTQ-to-FASTA converter,FASTQ/A Trimmer,FASTQ/A Clipper,FASTQ Quality Filter,FASTQ Quality Trimmer等数据处理常用工具,可自行组合使用。NGS QC Toolkit也是一个命令行工具集,包含:QC Tools,Format-converter Tools,Trimming Tools,Statistics Tools(AvgQuality.pls(AvgQuality.pls(AvgQuality.pl,N50Stat.pl)。此外,像Trimmomatic对illumina这种需要末端截取的数据处理很方便的原始质控软件,上节课介绍过了,这里不多说。readq也是一个很好用的脚本,有C,lua,perl,python 4种版本,速度很快,适合做大数据量的基础质控统计。


除此之外,宏基因组一般还需要去除宿主污染(比如肠道样本中的人类基因组信息等)。所以,这里会用到比对软件,比如SoapAligner和Bowtie(1和2),BWA等等,通过与参考基因组比对来剔除掉来源于宿主的信息。在短序列比对中,很显然SoapAligner和Bowtie在速度和资源上都更占优。Bowtie现在有1和2两个版本,2在长度50bp以上序列的准确度提升,目前用的比较多。SOAPaligner也是速度上比较有优势的短序列比对工具,而且占用内存非常小,也因此成为宏基因组去宿主的主流比对软件。


03

组  装

1、SOAPdenovo

SOAPdenovo is a novel short-read assembly method that can build a de novo draft assembly for the human-sized genomes, which specially designed to assemble Illumina GA short reads.

 

最新版本:

Version 2.04(r240最新更新在2015年8月)

参考文献:PMID: 23587118 

下载地址:

https://sourceforge.net/projects/soapdenovo2/files/SOAPdenovo2/

官网地址:

http://soap.genomics.org.cn/soapdenovo.html

2、MEGAHIT

MEGAHIT is a single node assembler for large and complex metagenomics NGS reads, such as soil. Compare to SOAPdenovo, it generates longer contigs and consumes less memory.


最新版本:

Version 1.1.2(最近更新时间2017年8月)

参考文献:PMID: 25609793

官网地址:

https://github.com/voutcn/megahit

3、IDBA-UD

IDBA-UD is a iterative De Bruijn Graph De Novo Assembler for Short Reads Sequencing data with Highly Uneven Sequencing Depth.


最新版本:

Version 1.1.3(官网上最新1.1.1,github上到1.1.3,最近更新时间2016年7月)

参考文献:PMID:22495754

下载地址:

https://github.com/loneknightpy/idba/releases

官网地址:

http://i.cs.hku.hk/~alse/hkubrg/projects/idba_ud/

4、SPAdes和metaSPAdes

An assembly toolkit containing various assembly pipelines, which works with Illumina or IonTorrent reads and is capable of providing hybrid assemblies using PacBio, Oxford Nanopore and Sanger reads.


最新版本:

Version 3.11(最新一次更新在2017年9月)

参考文献:PMID: 28298430,PMID: 22506599 

下载地址:

http://spades.bioinf.spbau.ru/release3.11.0/

官网地址:

http://cab.spbu.ru/software/spades/

Bioinformatics

老司机点评 

宏基因组的组装软件很多,从老牌的Velvet到国产神器soapdenovo,再到号称soapdenovo升级版的megahit,IDBA-UD,metaSPAdes等等,根据环境中微生物的种类和复杂程度,应用有所不同,这里主要介绍下几个最常用和有亮点的软件。

宏基因组常见组装软件(PMID: 28099457)

 

宏基因组组装组装难点在于,物种复杂度高导致需要的测序量比较大,需要的计算资源也就比较大,同时导致测序深度不均一,低丰度的物种可能测序深度不够,很难被组装出来,reads利用率不高。另一方面,目前整体NGS读长受限,混合多物种的环境样品微生物组装难度就更大了。

 

一般来说,中复杂度环境如肠道样品,一般用soapdenovo就足够了,需要内存80G左右。环境样本(如土壤,水体)其复杂度远高于肠道样品,组装软件就需要好好甄选一下了。IDBA-UD适合测序深度不均一的数据,因此从理论上来说是适合宏基因组组装的,尤其是复杂环境(如土壤,水体),但存在资源消耗过高,需要时间过长的问题。MEGAHIT具有资源消耗少,时间消耗短,组装结果优,reads利用率高的特点。今年在bioRxiv上online的一篇文章中对六个组装软件做了标准品评测后,也同样发现MEGAHIT给出了最好的组装结果。(doi: http://dx.doi.org/10.1101/099127)


分享一个自己做的软件评测结果,供大家参考10G土壤样品,IDBA-UD需要内存200-500G,4线程,需要2.5天;MEGAHIT需要内存40-60G,15线程,需要5小时。从组装结果来看,MEGAHIT的组装总长和数目提升2倍,reads利用率提升3倍,scaftigs平均长度,N50,最大长度无明显变化,对后续基因预测数目也有一定的提升。目前MEGAHIT在现有组装软件中,资源消耗基本上是最低的,因此很适合宏基因组中的复杂环境样品。

 

还有上面介绍过的软件SPAdes,无论单菌、宏基因组还是宏病毒组都表现不错,最新的版本打包了metaSPAdes、plasmidSPAdes、rnaSPAdes等等模块,支持来自不同平台数据的混装,包括Pacbio、Nanopore等。在今年发表的metaSPAdes软件文章(metaSPAdes: a new versatile metagenomics assembler)中显示,即使在复杂环境(土壤),组装效果也大大优于megahit、IDBA-UD等,但遗憾的是,像上一段里面说的,metaSPAdes仍然没有megahit资源消耗低。


当然,理论上来讲,足够高的覆盖度和足够长的Reads长度,可以预期能化解掉上述组装中大多数的困境。也因此,基于三代测序(Pacbio、Nanopore等)的宏基因组测序和分析给了我们更多的期待,也可能将带来整个组装逻辑的颠覆,另文详谈。


有了好的组装结果,宏基因组就成功了一半。


下一期,为大家继续分享基因预测、物种注释、功能注释、binning等内容。


对于16S和宏基因组,你了解的分析工具有哪些?有什么心得?欢迎加入生信者言讨论群,和我们一起交流,入群请联系微信:genegogo007







推荐阅读

点击下方图片即可阅读


扫码关注,获取更多精彩内容

喜马拉雅FM搜索并订阅:生信者言;收听内容:

《一分钟听懂NGS基础概念》,让生信分析不再遥不可及

《亲爱的姑娘,你值得被温柔以待》,11个真实的人物故事

《众病之王:癌症传》,一起聆听人类对抗癌症的斗争史

回复文字:果然科学,看一篇好玩的科普文。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存